随着自动化许多具有高保真性的化学任务的前景,化学语言处理模型正在快速迅速出现。在这里,我们提出了一个基于云的实时平台,该平台允许用户实际上筛选感兴趣的分子。为此,将杠杆化从最近提出的大型化学语言模型(名为Moleformer)推断出来的分子嵌入。该平台目前支持三个任务:最近的邻居检索,化学空间可视化和财产预测。根据该平台的功能并获得的结果,我们认为这样的平台可以在自动化化学和化学工程研究中起关键作用,并协助药物发现和材料设计任务。在\ url {www.ibm.biz/molecular_demo}提供我们平台的演示。
translated by 谷歌翻译
随着各种科学领域中数据的越来越多,生成模型在科学方法的每个步骤中都具有巨大的潜力来加速科学发现。他们最有价值的应用也许在于传统上提出假设最慢,最具挑战性的步骤。现在,正在从大量数据中学到强大的表示形式,以产生新的假设,这对从材料设计到药物发现的科学发现应用产生了重大影响。 GT4SD(https://github.com/gt4sd/gt4sd-core)是一个可扩展的开放源库,使科学家,开发人员和研究人员能够培训和使用科学发现中假设生成的最先进的生成模型。 GT4SD支持跨材料科学和药物发现的各种生成模型的用途,包括基于与目标蛋白,OMIC剖面,脚手架距离,结合能等性质的分子发现和设计。
translated by 谷歌翻译
学习有效的蛋白质表示在生物学的各种任务中至关重要,例如预测蛋白质功能或结构。现有的方法通常在大量未标记的氨基酸序列上预先蛋白质语言模型,然后在下游任务中使用一些标记的数据来对模型进行修复。尽管基于序列的方法具有有效性,但尚未探索蛋白质性能预测的已知蛋白质结构的预处理功能,尽管蛋白质结构已知是蛋白质功能的决定因素,但尚未探索。在本文中,我们建议根据其3D结构预处理蛋白质。我们首先提出一个简单而有效的编码器,以学习蛋白质的几何特征。我们通过利用多视图对比学习和不同的自我预测任务来预先蛋白质图编码器。对功能预测和折叠分类任务的实验结果表明,我们提出的预处理方法表现优于或与最新的基于最新的序列方法相提并论,同时使用较少的数据。我们的实施可在https://github.com/deepgraphlearning/gearnet上获得。
translated by 谷歌翻译
光酸产生剂(PAG)是在暴露于光线时释放酸($ H ^ + $离子)的化合物。这些化合物是用于制造半导体逻辑和存储芯片的光刻工艺的关键组分。半导体需求的指数增加突出了发现新型光酸发生器的需求。虽然De Novo分子设计使用深度生成模型被广泛用于药物发现和材料设计,但其在创建新颖的光酸发电机的应用构成了几个独特的挑战,例如缺乏房地产标签。在本文中,我们突出了这些挑战,并提出了一种生成的建模方法,该方法利用预先训练的深度自动化器和循环技术的条件生成。在主题专家的帮助下评估了拟议方法的有效性,表明在创建新型光酸生成器之外的应用方法的承诺。
translated by 谷歌翻译
计算蛋白质设计,即推断与给定结构一致的新型和多样的蛋白质序列仍然是一个主要的未解决的挑战。最近,从单独的序列或序列和结构中学习的深度生成模型在此任务上表现出令人印象深刻的性能。然而,这些模型在建模结构约束方面出现有限,捕获足够的序列分集或两者。在这里,我们考虑三个最近提出的蛋白质设计的深度生成框架:(AR)基于序列的自回归生成模型,(GVP)基于精确的结构形式的图形神经网络,以及折叠模糊的模糊和无规模表示的折叠表示 - 折叠,同时强制执行结构到序列(反之亦然)一致性。我们基准这些模型对抗体序列计算设计的任务,要求设计具有高多样性的序列以进行功能含义。在设计序列的多样性方面,FOLD2SEQ框架突出了两个其他基线,同时保持典型的折叠。
translated by 谷歌翻译
Models based on machine learning can enable accurate and fast molecular property predictions, which is of interest in drug discovery and material design. Various supervised machine learning models have demonstrated promising performance, but the vast chemical space and the limited availability of property labels make supervised learning challenging. Recently, unsupervised transformer-based language models pretrained on a large unlabelled corpus have produced state-of-the-art results in many downstream natural language processing tasks. Inspired by this development, we present molecular embeddings obtained by training an efficient transformer encoder model, MoLFormer, which uses rotary positional embeddings. This model employs a linear attention mechanism, coupled with highly distributed training, on SMILES sequences of 1.1 billion unlabelled molecules from the PubChem and ZINC datasets. We show that the learned molecular representation outperforms existing baselines, including supervised and self-supervised graph neural networks and language models, on several downstream tasks from ten benchmark datasets. They perform competitively on two others. Further analyses, specifically through the lens of attention, demonstrate that MoLFormer trained on chemical SMILES indeed learns the spatial relationships between atoms within a molecule. These results provide encouraging evidence that large-scale molecular language models can capture sufficient chemical and structural information to predict various distinct molecular properties, including quantum-chemical properties.
translated by 谷歌翻译